🤖 Mesterséges Intelligencia alapjai – 7. fejezet: A nagy nyelvi modellek (LLM-ek) működése egyszerűen

⏱️ Olvasási idő: kb. 45 perc

A nagy nyelvi modellek (LLM-ek) működése egyszerűen

1. Mi az LLM valójában?

1. média – Amikor a gép tanulni kezd. Ikonok forrása: www.canva.com

A „Large Language Model” (LLM) kifejezés elsőre bonyolultan hangzik, de a lényege meglepően egyszerű: egy LLM szövegeket olvas, és megpróbálja kitalálni, mi következik legnagyobb valószínűséggel.

Ha például azt írjuk:

„A macska felugrott az ablak…”

a modell statisztikai alapon arra tippel, hogy a következő szó valószínűleg „párkányára” lesz, nem pedig „háztetőre”, és főleg nem az „étterem”.

A nyelvi modellek úgy működnek, mint egy „szójósló” rendszer: minden pillanatban megbecsülik, mi következik legnagyobb valószínűséggel. 
			Itt a modell a mondat folytatásaként leginkább a „párkányára” szót választaná, mert ezt a kifejezést látta a legtöbbször hasonló szövegkörnyezetben.
1. ábra: A nyelvi modellek úgy működnek, mint egy „szójósló” rendszer: minden pillanatban megbecsülik, mi következik legnagyobb valószínűséggel. Itt a modell a mondat folytatásaként leginkább a „párkányára” szót választaná, mert ezt a kifejezést látta a legtöbbször hasonló szövegkörnyezetben. Ikonok forrása: www.flaticon.com

Ez a módszer — a következő szó valószínűségének becslése — minden nyelvi modell alapja. Egy szó beérkezése után a modell kiszámítja, hogy az adott kontextusban mely szavak jöhetnek szóba, és mindegyikhez egy valószínűséget rendel. A legmagasabb értékű szót választja, és így halad tovább. Ezt a folyamatot hívjuk nyelvi predikciónak.

De a „nagy” szó (Large) nem véletlen: ezek a modellek több száz milliárd szónyi szöveget tanultak meg feldolgozni, és több tízmilliárd paraméter segítségével képesek emlékezni, általánosítani és összefüggéseket felismerni. A paraméterek itt olyan, mint a neurális hálózat „emlékezete”: mindegyik finomítja, hogyan reagáljon a modell bizonyos mintákra.

LLM
2. ábra: A „nagy” szó az LLM nevében nem véletlen. Az elmúlt években a nyelvi modellek mérete robbanásszerűen nőtt: míg a 2018-as BERT modell „csupán” 345 millió paraméterrel dolgozott, addig a GPT-4 már becslések szerint 1,4 billió (1 400 000 000 000) paraméterrel tanul. Minden paraméter a hálózat egy kis „emléke” arról, hogyan kapcsolódnak egymáshoz a szavak. Minél több paramétert tartalmaz egy modell, annál összetettebb mintákat tud felismerni és általánosítani. Forrás: https://microsoft.github.io/

Míg a korábbi fejezetekben megismert perceptron vagy a konvolúciós hálózatok képeket elemeztek, az LLM ugyanazt az elvet alkalmazza a szövegre: a szavak közötti mintázatokat keresi. A különbség csak az, hogy itt a „képpontokat” nem pixelek, hanem tokenek — a szavak vagy szórészek numerikus leképezései — jelentik.

Másképp fogalmazva:

A nyelvi modell nem „érti” a világot emberi értelemben. Nem tudja, mit jelent az „ablak”, csak azt, hogy milyen szavak szoktak mellette állni. De mivel rengeteg adatból tanul, a minta, amit felismer, gyakran lenyűgözően emberinek tűnik.

Ez a statisztikai mintafelismerés az, ami lehetővé teszi, hogy a modell történeteket írjon, szöveget fordítson, vagy akár logikus érveket is építsen. A következő alfejezetben megnézzük, miből tanul ez a rendszer, és hogyan lesz a puszta szövegből „tudás”.

2. Miből tanul egy LLM?

A nyelvi modellek nem kézzel írt szabályokat követnek, hanem adatból tanulnak. Nem egy programozó mondja meg nekik, mit jelent egy szó, hanem maguk fedezik fel a jelentésmintákat a hatalmas szövegkorpuszon belül.

Egy tipikus LLM több százmillió dokumentumot, könyvet, weboldalt és programkódot dolgoz fel. Ezeket a szövegeket először megtisztítják (pl. reklámok, ismétlődések eltávolítása), majd feldarabolják apró egységekre, úgynevezett tokenekre. A token lehet egy egész szó (macskák), de gyakran csak egy szótöredék (macska), így a modell a nyelv legkisebb építőkockáiból tanulja meg a jelentést.

Az LLM-ek nem „tudnak” úgy, mint az emberek
3. ábra: Az LLM-ek nem „tudnak” úgy, mint az emberek — ők a szövegekben található mintákból tanulnak, és ez alapján egyszerre egy szót jósolnak meg a kontextus alapján. Ikonok forrása: www.flaticon.com

A cél, hogy a modell megtanulja:

Egy egyszerű példával:

Ha egy modell sokszor látja a következő mondatokat:

  • „A tanár megĂ­rta a dolgozatot.”
  • „A tanulĂł megĂ­rta a házi feladatot.”
  • „A diák leadta a dolgozatot.”

akkor „megtanulja”, hogy a „tanuló” és a „diák” hasonló szavak, a „dolgozat” gyakran együtt jár velük, és hogy az „írta” és a „leadta” hasonló cselekvések. Ez nem emberi megértés, hanem statisztikai mintázatok felismerése.

A tanulás során a modell kapcsolatokat épít a szavak között – mint egy hatalmas, láthatatlan háló, ahol a hasonló jelentésű kifejezések egymáshoz közel kerülnek. Ezt a folyamatot nevezzük nyelvi reprezentáció tanulásnak. A hatalmas adatmennyiség miatt az LLM képes általánosítani: ha egy eddig nem látott szót vagy kifejezést olvas, gyakran el tudja találni a jelentését pusztán a környező szavakból. Ez teszi lehetővé, hogy új, kreatív válaszokat adjon – nem ismétel, hanem mintázatokból jósol.

3. Hogyan tanul egy nyelvi modell?

Eddig láttuk, hogy a neurális hálózatok (például a CNN) képesek képekből mintákat felismerni. De hogyan lehetséges, hogy egy hasonló rendszer szövegeket is „megért” – mondatokat, kérdéseket, vagy akár verseket ír? Ehhez először meg kell értenünk, hogyan tanul egy nyelvi modell.

3.1. A szavak számokká alakulnak

A számítógép nem tudja, mi az, hogy „ablak” vagy „macska” – de tud számokkal dolgozni. Ezért a tanulás első lépése az, hogy minden szót, vagy szótöredéket átalakítunk egy többdimenziós számoszlopra, amit vektornak nevezünk. Ezt a folyamatot hívjuk embeddingnek (beágyazásnak).

A szavak beágyazása (embedding)
4. ábra: A szavak vektorrá alakítása vagy beágyazása (embedding) egy matematikai folyamat, amely során a szavak az előfordulási mintáik alapján kerülnek elhelyezésre egy többdimenziós térben. Ebben a térben a hasonló jelentésű szavak egymáshoz közel helyezkednek el, így a modell „megtanulja” érzékelni a nyelvi hasonlóságokat. Ikonok forrása: www.flaticon.com
Megjegyzés – hogyan működik a beágyazás?

A beágyazás (embedding) lényege, hogy a szavakat egy többdimenziós térbe helyezzük el úgy, hogy a hasonló jelentésű kifejezések egymáshoz közel kerüljenek. Ezt a modell statisztikai alapon, hatalmas szövegmennyiségen keresztül tanulja meg: megfigyeli, mely szavak fordulnak elő hasonló környezetben, és ezeknek hasonló vektorokat rendel.

A folyamat mögött bonyolult lineáris algebrai és optimalizációs módszerek állnak, amelyek részletes tárgyalása túlmutat ezen a kurzuson. Itt elég annyit tudni, hogy az embedding teszi lehetővé, hogy a gép számok formájában ismerje fel a nyelvi hasonlóságokat.

Ebben a térben a hasonló jelentésű szavak egymáshoz közel kerülnek: „király” közel van a „herceg”-hez, „kutya” közel van a „macská”-hoz, de messze a „felhőkarcoló”-tól. Így a modell számok formájában már érzékeli a nyelvi hasonlóságokat.

Egy egyszerű példa:

A modell nem azt látja, hogy „kutya” és „macska”, hanem két hasonló számvektort: (0.21, 0.87, 0.33, ...) és (0.25, 0.82, 0.36, ...). A közelségük alapján felismeri, hogy a két szó hasonló jelentésű.

A beágyazási (embedding) tér szemléltetése.
5. ábra: A beágyazási (embedding) tér szemléltetése. A hasonló jelentésű szavak — mint a király–királynő vagy a kutya–macska — egymáshoz közel kerülnek ebben a többdimenziós térben. A modell így a geometriai közelség alapján képes felismerni a nyelvi hasonlóságokat. Ikonok forrása: www.flaticon.com

3.2. Mintázatok keresése a kontextusban

Miután minden szó számokká alakult, a modell megpróbálja felismerni a mintákat: milyen szavak követik egymást, milyen kifejezések járnak együtt, és hogyan változik a jelentés a környezet (kontextus) függvényében.

A tanítás során a modell sok millió mondatot lát, és minden alkalommal megpróbálja kitalálni a következő szót. Ha hibázik, a hiba nagysága (a loss) visszajut a hálózatba, és a modell súlyokat módosít, hogy legközelebb kisebb hibát kövessen el. Ez a folyamat neve: gradiens-csökkentéses tanulás (gradient descent).

Így a modell lépésről lépésre pontosítja a belső kapcsolatait, amíg meg nem tanulja, milyen minták jellemzőek az emberi nyelvre.

3.3. A „figyelem” mechanizmusa – mire érdemes figyelni?

A modern LLM-ek titkos fegyvere a Transformer-architektúra, amely lehetővé teszi, hogy a modell egyszerre lássa a teljes mondatot, és mérlegelje, melyik szó mennyire fontos. Ez a self-attention mechanizmus: a modell megtanulja, hogy a „nem” szó például teljesen megfordíthatja a mondat jelentését.

Másképp fogalmazva:

A Transformer úgy tanul, mint egy diák, aki olvasás közben kiemeli a fontos szavakat a szövegben. Így nem minden szóra figyel egyformán, hanem arra, amelyik a mondat értelme szempontjából kulcsfontosságú.

3.4. A tanulás eredménye

A modell nem szabályokat tárol, hanem valószínűségi kapcsolatokat. Megtanulja, hogy a „macska” szó után gyakran jön az „ugrik”, vagy hogy „Szeged” gyakran szerepel „Juhász Gyula” mellett. Ezekből a mintákból épül fel az, amit mi „tudásnak” érzékelünk.

A modell tehát nem „érti” a világot, de statisztikailag megtanulja a nyelv logikáját. És amikor szöveget generál, nem emlékeiből idéz, hanem valószínűségek alapján jósolja a következő szót.

2. média – Hogyan alkot választ a ChatGPT? Ikonok forrása: www.canva.com

Megjegyzés:

Amikor a ChatGPT-re vagy más nyelvi modellre rákérdezünk például, hogy „Ki volt Petőfi Sándor?”, a válasz nem egy előre tárolt mondat valahonnan az internet mélyéről. A modell nem keres, és nem is idéz szöveget, hanem valós időben építi fel a választ, tokenről tokenre – azaz szó- vagy szótöredék-szinten.

A gép nem „emlékszik” Petőfire, viszont tudja, hogy a tanult szövegekben a „Petőfi Sándor” név gyakran együtt fordult elő olyan kifejezésekkel, mint „magyar költő”, „1848-as forradalom”, „Nemzeti dal” vagy „Szabadság, szerelem”. Ezeket a mintákat felismerve, a modell valószínűségi alapon dönti el, hogy a következő szó vagy kifejezés mi legyen. Például így „gondolkodik” belül:

A modell tehát nem másolja a megtanult szövegeket, hanem a korábban megismert minták és szókapcsolatok alapján újramondja a tartalmat. A mondat, amit látunk, így jön létre:

„Petőfi Sándor magyar költő volt, az 1848-as forradalom egyik legismertebb alakja.”

Ez a mondat nem létezett korábban, csak a modell valószínűségi döntéseinek eredményeként született meg. Vagyis az LLM nem szó szerinti ismétlésre képes, hanem minták újrakombinálására és fogalmi általánosításra. Emiatt tűnik úgy, mintha „értené”, amiről beszél – pedig valójában csak statisztikailag jól tippel.

4. Az instrukció-tanítás (utasítás követés) – amikor a modell megtanul „engedelmeskedni”

A korai nyelvi modellek csak az interneten található szövegekből tanultak, és ezek alapján próbálták megjósolni, mi következik a szövegben. Nem értették, hogy egy kérdésre válaszolni kell — csak azt tudták, hogyan folytassanak egy szöveget a tanult minták szerint.

Ezért a legelső modellek gyakran furcsán viselkedtek: ha például kérdést kaptak, válasz helyett gyakran több opciót soroltak fel, mert az interneten is ilyen formában (kvízekben, fórumokon, kérdőívekben) találkoztak velük.

Például:

Kérdés: Hol született Juhász Gyula?

Válasz:
  • KecskemĂ©ten
  • Szegeden
  • Szentesen
  • KiskunfĂ©legyházán
 A korai nyelvi modellek még nem értették a kérdés lényegét
6. ábra: A korai nyelvi modellek még nem értették a kérdés lényegét — csak statisztikai mintázatokat ismertek fel a szövegekben, így nem ténylegesen válaszoltak, hanem „tippeltek”. Ikonok forrása: www.flaticon.com

Az első GPT-modell 2018-ban jelent meg, és bár akkor még alapvetően szövegfolytatásra volt képes, az évek során a tanítási módszer forradalmi változáson ment keresztül. A legfontosabb lépés az volt, amikor a fejlesztők elkezdték megtanítani a modelleket arra, hogy utasításokat is értelmezzenek és kövessenek. Ezt nevezzük instrukció-tanításnak (angolul: instruction tuning).

Például a tanítás után:

Kérdés: Hol született Juhász Gyula?

Válasz: Juhász Gyula Szegeden született.

Ebben a fázisban a modellt olyan adatokkal finomhangolják, amelyek valós emberi kérdés–válasz példákat tartalmaznak. Ezekből a példákból a modell megtanulja, hogy amikor egy kérdést lát, ne felsoroljon lehetőségeket, hanem fogalmazzon meg egy természetes választ.

Az LLM-ek működése röviden
7. ábra: Az LLM-ek működése röviden: egy hatalmas statisztikai gép, amely minden pillanatban megpróbálja kitalálni, mi legyen a következő szó. Forrás: https://www.linkedin.com/posts/becker-lisa_llms-dont-plan-out-the-text-theyre-generating-activity-7138508006106853376-Oo4P/

Az instrukció-tanítás tehát nem új tudást ad a modellnek, hanem megtanítja hogyan használja a meglévő tudását a felhasználó kérésének megfelelően. Ettől váltak a modern LLM-ek (mint a ChatGPT, Gemini vagy Claude) segítőkész, kontextusérzékeny és emberközeli eszközökké.

A fejlesztés utolsó lépése gyakran a Reinforcement Learning from Human Feedback (RLHF) – azaz megerősítéses tanulás emberi visszajelzéssel. Ebben az emberek több lehetséges választ értékelnek, a modell pedig megtanulja, melyik megfogalmazás „jobb”: pontosabb, udvariasabb vagy koherensebb.

Mit nyerĂĽnk ezzel?

Az instrukció-tanítás és az RLHF együtt tették lehetővé, hogy az LLM-ek a puszta szövegfolytatásból valódi interaktív párbeszédre képes rendszerekké váljanak.

Megjegyzés:

Amikor egy nyelvi modell, például a ChatGPT, választ generál, az nem egyetlen, tökéletes mondatként születik meg. A folyamat inkább többlépcsős finomítás – a modell először egy nyers, gyakran pontatlan vagy „buta” mondatváltozatot készít, majd a belső rétegei és a valószínűségi súlyok alapján fokozatosan javítja azt.

Ez a javítás nem emberi értelemben vett „átgondolás”, hanem egy önkorrekciós statisztikai folyamat: a modell minden egyes token (szó) után újraértékeli a korábbi szavakat, és ha úgy „látja”, hogy az eddigi mondat nem illik jól a kontextushoz, más irányba folytatja a gondolatot.

Például ha a modell először így „kezdene”:
„Petőfi Sándor egy híres ember volt, aki valamikor régen élt.” – ezt túl általánosnak érzékeli, és a következő lépésekben javítja:
„Petőfi Sándor magyar költő volt, az 1848-as forradalom egyik vezéralakja.”

Ez a folyamat a belső attention mechanizmusok és valószínűségi visszacsatolások révén történik, amelyek a korábbi szavakat is újraértékelik minden új szó hozzáadásakor. Így jön létre a „gondolkodás” illúziója: a modell látszólag átfogalmaz, valójában azonban minden pillanatban újraszámolja, mi hangzik a legvalószínűbben helyesnek.

5. Halucináció – amikor a modell „túl okosnak hiszi magát”

A nyelvi modell nem rendelkezik valóságtudattal. Nem tudja, mi igaz és mi hamis – csak azt, hogy milyen szavak szoktak egymás után következni. Ezért, ha egy kérdésre nem tudja a biztos választ, akkor is generál valamit, hiszen a feladata az, hogy folytassa a szöveget a legvalószínűbb módon.

Például:

Kérdés: Mikor született Sherlock Holmes?

Válasz: 1854. január 6. – jól hangzik, csak épp Holmes sosem létezett.

A „halucináció” jelensége
8. ábra: A „halucináció” jelensége: a modell logikusnak tűnő, de valójában hamis információt ad. A nyelvi modell nem tudja, mi igaz vagy hamis – csak azt, milyen szavak fordulnak elő gyakran együtt. Ezért magabiztosan állíthat olyasmit is, ami valójában nem létezik. Ikonok forrása: www.flaticon.com

Ez a jelenség az úgynevezett halucináció: amikor a modell logikusnak tűnő, de valójában kitalált információt ad. Nem hazudik, hiszen nincs szándéka – egyszerűen csak statisztikai mintákat folytat. Ha sok életrajzban szerepel a „született” szó és egy dátum, a modell ezt a mintát követi akkor is, ha a kérdés egy fiktív személyről szól.

A halucináció tehát nem „hiba” a klasszikus értelemben, hanem a nyelvi jóslás természetes mellékhatása. Az LLM nem a valóságot ismeri, hanem a szövegek világát, és abban próbál következetes maradni.

Miért történik ez?
A „halucináció” jelensége
9. ábra: A nyelvi modell mindig folytatni próbálja a szöveget, még akkor is, ha nem biztos az információban. A tanulás célja nem az igazság felismerése, hanem a valószínűség becslése, és a modell igyekszik logikus maradni hiányos adatok esetén is. Ikonok forrása: www.flaticon.com
  • Mert a modell mindig folytatni akarja a szöveget – akkor is, ha nincs megbĂ­zhatĂł informáciĂłja.
  • Mert a tanulás során nem azt tanulta meg, mi igaz, hanem azt, mi hangzik valĂłszĂ­nűnek.
  • Mert a kontextus alapján prĂłbál logikus maradni, mĂ©g ha az adat hiányos is.

A halucinációk gyakorisága csökkenthető, ha a modellhez külső, valós forrásokat kapcsolunk, például adatbázisokat, tudásgráfokat vagy keresőmotorokat – ezt nevezzük Retrieval Augmented Generation (RAG) megközelítésnek. Ilyenkor a modell nem „kitalálja”, hanem „kinézi” az információt megbízható helyekről.

Végső soron a felhasználóé a felelősség: minden generált tartalmat kritikusan és forráskritikával kell kezelni. A jó promptok, a szakmai ellenőrzés és az emberi felügyelet együtt segítenek abban, hogy a modell kreativitása ne váljon tévedéssé.

6. Válaszadás külső információk alapján

A modern nyelvi modellek már nemcsak válaszokat adnak, hanem hivatkozásokat és forrásokat is mellékelnek, amelyek segítenek az ellenőrzésben. Ez különösen fontos, mert a modell maga nem tudja, mi igaz – de ha hozzáfér megbízható külső információkhoz, akkor pontosabb és hitelesebb válaszokat tud adni.

A Retrieval Augmented Generation (röviden RAG) olyan megközelítés, ahol a nyelvi modell a saját „emlékezete” helyett külső forrásokból merít adatot: dokumentumokból, adatbázisokból vagy akár egy webkeresésből. Ilyenkor a modell nem találgat, hanem kinyeri az információt, majd természetes nyelven megfogalmazza a választ.

Hogyan működik ez a gyakorlatban?
  1. A felhasználó kérdést tesz fel a modellnek (pl. „Ki nyerte a legutóbbi Forma–1 futamot?”).
  2. A rendszer először keresést végez megbízható forrásokban (web, tudásbázis, dokumentumok).
  3. A megtalált szövegeket átadja a nyelvi modellnek.
  4. A modell ezekből összegzi és megfogalmazza a választ emberi nyelven.
 A Retrieval Augmented Generation (RAG) működése.
10. ábra: A Retrieval Augmented Generation (RAG) működése. A modell nem találgat, hanem előbb releváns forrásokat keres (adatbázisok, weboldalak, tudásgráfok), majd ezekből megfogalmazza a választ. Az így kapott eredmény nemcsak természetes nyelvű, hanem ellenőrizhető forrásokra támaszkodik. Ikonok forrása: www.flaticon.com

Így a nyelvi modell nem önálló tudásforrás, hanem egyfajta tolmács a felhasználó és az információ között. A RAG segítségével a válaszok nemcsak természetesebbek, hanem ellenőrizhetők és forrásalapúak is.

Ez a megközelítés különösen fontos olyan területeken, ahol a pontosság és a megbízhatóság kulcsfontosságú – például orvosi diagnosztika, jogi elemzés, tudományos kutatás vagy oktatási tartalomkészítés esetén. A modell tehát nem helyettesíti a tudást, hanem hozzáférést biztosít hozzá.

Miért hasznos ez?

Ugyanakkor fontos tudni, hogy a RAG sem hibátlan megoldás. Bár a külső források bevonása segít a pontosságban, a modell továbbra is generatív módon fogalmazza meg a választ. Ez azt jelenti, hogy az információkat nem szó szerint idézi, hanem összegzi és átfogalmazza – ezért a pontosság itt is a statisztikai mintákon múlik, nem a „megértésen”.

A modell időnként még így is képes hamis hivatkozásokat vagy nem létező linkeket generálni, mivel a linkek formátumát „ismeri”, de a valós tartalmat nem ellenőrzi. Ezért a RAG-ot érdemes úgy tekinteni, mint egy jó asszisztenst: segít, tájékozódik, javasol – de nem helyettesíti az emberi ellenőrzést.

Másképp fogalmazva: a RAG nem „bulletproof pajzs” a hibák ellen, de jelentősen növeli a válaszok megbízhatóságát. Olyan, mint egy térkép – mutatja az utat, de a döntést továbbra is nekünk kell meghozni.

A jövő nyelvi modelljei várhatóan egyre inkább ilyen hibrid módon működnek majd: az LLM lesz a „nyelvi agy”, amely a forrásokból szerzett tudást valós idejű, érthető és releváns válaszokká alakítja.

7. Mi történik a háttérben? (A technikai alapok röviden)

A nagy nyelvi modellek működésének motorja a Deep Learning – ugyanaz a neurális hálózatos elv, amelyet már a perceptronoknál és a CNN-eknél megismertünk, csak óriási léptékben. Míg egy perceptron néhány bemeneti jellel dolgozik, az LLM-ek már több százmilliárd szó közti kapcsolatot tanulnak meg.

Hogyan képzeljük el?

A korábbi neurális hálókhoz hasonlóan itt is rétegek dolgoznak együtt – csakhogy nem tucatnyi, hanem akár 100–150 réteg, és mindegyik több millió paramétert (súlyt) tartalmaz. Ezek a paraméterek együtt határozzák meg, hogy a modell hogyan reagál egy adott szókapcsolatra vagy kérdésre.

A mai nyelvi modellek alapját a Transformer-architektúra adja, amely 2017-ben forradalmasította a természetes nyelv feldolgozását. A Transformer újdonsága az volt, hogy képes lett figyelmet osztani – vagyis egyszerre látja a teljes mondatot, és képes felismerni, mely szavak hatnak egymás jelentésére. Ezt nevezzük attention mechanizmusnak, amely a híres mondatban így fogalmazódott meg: “Attention is all you need.”

Az attention teszi lehetővé, hogy a modell megértse például, hogy a „nem” szó teljesen megváltoztatja egy mondat jelentését, vagy hogy a „Szegeden született” kifejezésben a „Szeged” a helyre utal, nem egy tulajdonságra. A Transformer tehát nem csak feldolgozza a szavakat, hanem összefüggéseket tanul meg közöttük.

Miután a hálózat megtanulta az emberi nyelv mintázatait, egy utolsó tanítási lépés következik: a Reinforcement Learning from Human Feedback (RLHF), vagyis az emberi visszajelzéssel irányított megerősítéses tanulás. Itt a modell jutalmat kap, ha emberileg értelmes, udvarias és hasznos választ ad, és „büntetést”, ha nem. Így hangolódik össze a „nyers” tudás a társadalmilag elfogadott viselkedéssel.

A megerősítéses tanulás visszajelzéssel (RLHF és RLAIF) működési elve
 A Retrieval Augmented Generation (RAG) működése.
11. ábra: A megerősítéses tanulás visszajelzéssel (RLHF és RLAIF) működési elve. A modell különböző válaszokat generál, majd visszajelzést kap arról, melyik válasz volt jobb – ez a visszajelzés érkezhet embertől (alsó folyamat, RLHF) vagy akár egy másik, előre betanított AI-modelltől (felső folyamat, RLAIF). A cél mindkét esetben ugyanaz: hogy a nyelvi modell megtanuljon koherensebb, udvariasabb és hasznosabb válaszokat adni. Forrás: https://medium.datadriveninvestor.com/rlaif-scaling-reinforcement-learning-from-human-feedback-with-ai-feedback-aae57b7c36a9

Nem szükséges megértenünk a matematikai részleteket – a lényeg, hogy a modell a visszajelzésekből tanul. Az RLHF (Human Feedback) esetén emberek értékelik a válaszokat, míg az RLAIF (AI Feedback) esetén ezt a szerepet egy másik mesterséges intelligencia veszi át. Ez segíti a modelleket abban, hogy önállóbban, de továbbra is emberi értékek mentén fejlődjenek.

Az LLM három alapja röviden:

Ez a három technológia együtt adja a modern nyelvi modellek – például a ChatGPT, Claude, Gemini vagy Mistral – működési alapját. Bár a matematika bonyolult, a koncepció egyszerű: egy óriási statisztikai rendszer, amely megtanulja, hogyan beszélünk, kérdezünk és gondolkodunk a nyelvben.

8. Hogyan használjuk jól az LLM-et?

Egy LLM csak annyira hasznos, amennyire okosan kérdezzük. A mesterséges intelligencia nem gondolatolvasó: a pontatlan, homályos vagy túl általános kérdések gyakran felszínes, félreérthető válaszokat eredményeznek. Ezzel szemben a jól strukturált, világos és célzott kérdésekből a modell meglepően pontos, logikus és használható válaszokat tud adni.

Az alábbi néhány egyszerű, de hatékony promptolási stratégia segít abban, hogy a modellből a lehető legtöbbet hozd ki:

Tipp:

A jó prompt nem manipulálja a modellt – irányítja. Gondolj rá úgy, mint egy beszélgetésre: ha te pontosan fogalmazol, a másik fél is pontosabban fog válaszolni.

Érdemes kísérletezni különböző megfogalmazásokkal, és megnézni, hogyan változik a válasz stílusa és mélysége. A modellek érzékenyek a hangnemre és a kontextusra – tehát a „hogyan kérdezel”, legalább annyira számít, mint a „mit kérdezel”.

Próbáld ütköztetni a választ!
Ha kapsz egy választ, ne fogadd el azonnal: kérdezd meg tőle, „miért gondolod így?”, vagy „mi szól a másik nézőpont mellett?”. Ez nemcsak pontosítja a választ, hanem segít megérteni a modell érvelési mintáját is. Az ilyen „visszakérdezős” párbeszédek gyakran sokkal mélyebb megértést hoznak, mint egyetlen kérdés–válasz interakció.

Ezek a stratégiák nem technikai trükkök, hanem kommunikációs elvek. Egy jól megfogalmazott prompt nem csupán pontos választ ad, hanem megmutatja, hogy az ember és a gép közötti párbeszéd is tanulható készség.

Fontos megjegyzés:

Még a legjobb prompt sem helyettesíti a forráskritikát. A modell magabiztosan fogalmazhat téves információkat is – ezért minden esetben ellenőrizd a választ megbízható forrásokkal.

9. Vajon mit tartogat a jövő?

A nyelvi modellek fejlődése az utóbbi években minden képzeletet felülmúlt. A kutatások egyre inkább abba az irányba haladnak, hogy a modellek ne csak válaszoljanak, hanem értsék is a kontextust, az érzelmeket és a szándékot. A jövő LLM-jei valószínűleg még inkább multimodálisak lesznek – nemcsak szöveggel, hanem hanggal, képpel és videóval is képesek kommunikálni.

Ezzel együtt az etikai, jogi és társadalmi kérdések is egyre fontosabbá válnak. Ahogy a mesterséges intelligencia egyre közelebb kerül az emberi kommunikációhoz, újra és újra fel kell tennünk a kérdést: ki irányít kit – mi az ember szerepe egy tanuló gépek által alakított világban?

 A Retrieval Augmented Generation (RAG) működése.
12. ábra: Az ember és a mesterséges intelligencia kapcsolata ma már nem egyirányú. Az ember fejleszti, tanítja és irányítja a modellt, miközben a modell befolyásolja gondolkodásunkat, döntéseinket és kommunikációnkat is. A jövő egyik legfontosabb kérdése, hogy ki irányít kit – vagy inkább: hogyan tudunk együttműködni? Ikonok forrása: www.flaticon.com

Egy dolog azonban biztos: a mesterséges intelligencia nem csupán technológiai forradalom, hanem egy új gondolkodásmód is, amelyben az ember és a gép együtt tanul, fejlődik és alkot.

Ellenőrző kérdések:

  1. Igaz az állítás, hogy egy nagy nyelvi modell (LLM) mindig tudja, mi igaz és mi hamis?
  2. Mit jelent az, hogy az LLM-ek „a következő szót jósolják meg”?
  3. Mi a különbség a „token” és a „szó” között a nyelvi modellekben?
  4. Igaz az állítás, hogy az LLM-ek szabályok alapján döntenek, melyik szó következik?
  5. Mi a „beágyazás” (embedding) célja a nyelvi modellek tanulásában?
  6. Melyik szavak kerülnek egymáshoz közel az embedding térben?
  7. Igaz az állítás, hogy a Transformer-architektúra képes felismerni, mely szavak fontosak egymás szempontjából?
  8. Mit értünk a „self-attention” (önfigyelem) mechanizmus alatt?
  9. Mi a különbség az LLM és a hagyományos neurális háló között a tanult minták mennyiségét tekintve?
  10. Mit jelent az, hogy a modell „halucinál”?
  11. Igaz az állítás, hogy a halucinációk mindig szándékos félrevezetés eredményei?
  12. Mi a Retrieval Augmented Generation (RAG) célja?
  13. Igaz az állítás, hogy a RAG a modell belső tudását egészíti ki külső forrásokkal?
  14. Mit tanul meg a modell az instrukció-tanítás (instruction tuning) során?
  15. Mi a Reinforcement Learning from Human Feedback (RLHF) fő célja?

Hivatkozások és források